یادگیری تقویتی مبتنی بر نقشه خودسازمان ده تطبیقی با زمان

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر
  • نویسنده حسام منتظری
  • استاد راهنما رضا صفابخش
  • تعداد صفحات: ۱۵ صفحه ی اول
  • سال انتشار 1385
چکیده

یادگیری تقویتی، نگاشت وضعیت ها به عمل ها با هدف ماکزیمم کردن سیگنال پاداش دریافتی را بررسی می کند. در این نوع یادگیری، به عامل گفته نمی شود که چه عملی را انتخاب کند، بلکه عامل باید عملی را انتخاب کند که پاداش دریافتی از محیط را بیشینه کند. در چالش برانگیزترین حالات، پاداش عمل ها بلافاصله مشخص نمی شود. یادگیری تقویتی، از یک سو دارای پشتوانه قوی از قضایا و اثبات های ریاضی است؛ و از سویی دیگر، این روش در مسایل مختلفی همچون مسیریابی ربات، اجتناب از مانع، تصمیم گیری در بازی ها، مسایل مهارت ها در روبوکاپ، و کنترل ترافیک به طور موفق عمل کرده است. یکی از مسایل مهمی که در مورد این روش مطرح می شود، بسط و توسعه روش به مسایلی با فضای وضعیت پیوسته است. برای حل مسایل با فضای وضعیت پیوسته، روش های مختلفی مانند شبکه های عصبی پرسپترونی چند لایه، کیمک، درخت های تصمیم، و نقشه های خود سازمان ده ارایه شده است. نشان داده شده است که یادگیری تقویتی با استفاده از نقشه های خود سازمان ده استاندارد در حل بسیاری از مسایل با فضای وضعیت پیوسته و حتی فضای عمل پیوسته موفق بوده اند. اما نقشه خودسازمان ده استاندارد نمی تواند یک تابع هدف متغیر را به خوبی ارایه کند و برای توابع هدفی که با توپولوژی نقشه همخوانی ندارد مورد استفاده واقع نمی شود. در این پایان نامه، یادگیری تقویتی مبتنی بر نقشه خودسازمان ده تطبیقی برای حل مشکل تابع هدف متغیر ارایه شده است. تابع هدف متغیر در یادگیری تقویتی منحصر به داده های فضای ورودی نیست، بلکه داده هایی که به عنوان ورودی نقشه خروجی داده می شود همیشه توزیع چگالی متغیر با زمان دارد. باید توجه داشت در یادگیری تقویتی عامل با گذشت زمان عملکرد خود را بهبود می دهد، در نتیجه داده های ورودی به نقشه خروجی با گذشت زمان تغییر می کنند و توزیع چگالی آن ناایستا است. روش دیگری که در این پایان نامه ارایه شده است روش یادگیری تقویتی با استفاده از نقشه خودسازمان ده رشدیابنده است. این روش برای حل هر دو مشکل ذکر شده ارایه شده است. ترکیب یادگیری تقویتی با نقشه های خودسازمان ده رشدیابنده به سادگی امکان-پذیر نیست و ترکیب این نوع نقشه با الگوریتم هایی که جدول کیو آن در طول زمان ثابت است، میسر نمی باشد. در این پایان نامه الگوریتم جدیدی مبتنی بر نقشه های خودسازمان ده رشد یابنده ارایه شده است که جدول کیو آن در طول زمان بزرگ و کوچک می شود. نشان داده شده است این الگوریتم در حل مسایل مختلف از بقیه روش ها موفق تر بوده است.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

کنترل‌کننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت به‌هم‌پیوسته شامل SMES

هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترل‌کننده‌های PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیه‌ای حرارتی است. ابتدا تنظیم پارامترهای کنترل‌کننده‌های PID و SMES به‌صورت یک مسئله بهینه‌سازی مدل‌شده توسط الگوریتم تدریس - یادگیری اصلاح‌شده حل می‌شود. سپس عملکرد هم‌زمان آن‌ها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه می‌گردد. کنتر...

متن کامل

استخراج اتوماتیک تپه های بزرگ ماسه ای ریگ ییلان، شرق کویر لوت با استفاده از نقشه های خودسازمان ده

اشکال متفاوت از تپه‌های ماسه‌ای حدود 20 درصد از سطح بیابان­های جهان را پوشانده، که زمین ریخت‌شناسی آن­ها همواره از دیدگاه­های مختلف مورد توجه بوده است. روش­های سنتی نقشه­برداری زمین ریخت‌شناسیک کیفی و یا بر پایه­ی عملیات­های میدانی، به دلیل شرایط خاص و دشوار حاکم بر بیابان­ها بسیار زمان­بر و پرهزینه است. به ویژه زمانی که منطقه‌ای منحصر به فرد نظیر دشت لوت شامل تپه‌های بزرگ ماسه‌ای در مقیاسی بزر...

متن کامل

پیش‌بینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی

پیشرفت‌ها در حوزۀ هوش مصنوعی و یادگیری ماشین به‌خصوص درزمینۀ محاسبات تکاملی نه‌تنها ما را قادر به تجزیه‌وتحلیل مؤثرتر داده‌ها نموده است، بلکه این امکان را فراهم ساخته که از آن‌ها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقه‌مند به توسعه و آزمایش مدل‌های رفتاری قیمت سهام بوده‌اند. XCS سامانه‌ای مرکب از الگوریتم ژنتیک و یادگیری ...

متن کامل

کنترل کننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت به هم پیوسته شامل smes

هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترل کننده های pid و smes مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیه ای حرارتی است. ابتدا تنظیم پارامترهای کنترل کننده های pid و smes به صورت یک مسئله بهینه سازی مدل شده توسط الگوریتم تدریس - یادگیری اصلاح شده حل می شود. سپس عملکرد هم زمان آن ها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه می گردد. کنتر...

متن کامل

کاربرد نقشه های خودسازمان ده در آنالیز و طبقه بندی داده های میکروآرایه سرطان سینه

تجزیه، تحلیل و طبقه بندی داده های میکروآرایه یکی از موضوعات چالش برانگیز در حیطه بیوانفورماتیک است. از مهم ترین ویژگی های داده های میکروآرایه، ابعاد بسیار بالا (تعداد ژن های زیاد) در برابر تعداد کم نمونه ها می باشد. این عامل، باعث بروز مشکلات و چالش هایی در زمینه تحلیل این نوع داده ها شده است. بنابراین از روش های انتخاب ویژگی و کاهش ابعاد داده ها جهت حل این مشکلات و ارائه مدلی ساده تر و دقیق ت...

15 صفحه اول

راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست

توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توس...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی امیرکبیر(پلی تکنیک تهران) - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023